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Verfahren, Computerprogramm mit Programmcode-Mitteln und Com- 
puterprogramm-Produkt zur Analyse eines regulatorischen gene- 
tischen Netzwerks einer Zelle 

Die Erfindung betrifft eine Analyse eines regulatorischen ge- 
netischen Netzwerks einer Zelle unter Verwendung eines sta- 
tistischen Verfahrens. 



Aus [1] sind Grundlagen eines regulatorischen genetischen 
Netzwerks einer Zelle bekannt.. Unter einem solchen regulato- 
rischen genetischen Netzwerk seien dabei im Folgenden insbe- 
sondere regulatorische Wechselwirkungen zwischen Genen einer 
15 Zelle verstanden. 

Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schat- 
zungsweise 20.000 bis 40.000 Gene, von denen jeweils eine 
biologisch bestimmte Anzahl - abhangig von einer Spezialisie- 
rung einer Zelle - in Form einer DNA oder eines Teils einer 
DNA in einer Zelle vorhanden sind. 

Als ein Gen wird dabei ein nicht notwendigerweise zusammen- 
hangender Abschnitt dieser DNA bezeichnet, der einen geneti- 
schen Code fur ein Protein oder auch fur eine Gruppe von Pro- 
teinen (EiweiJistof f e) bzw. fur eine Erzeugung eines Proteins 
oder einer Proteingruppe enthalt. Insgesamt beinhalten die 
Gene einen genetischen Code fur etwa eine Million Proteine. 

30 Ein Wechselspiel bzw. die Wechselwirkungen der Gene unterein- 
ander sowie mit den Proteinen stellt den wichtigsten Teil ei- 
ner Maschinerie (regulatorisches genetisches Netzwerk) dar, 
die einer Entwicklung eines menschlichen KSrpers aus einer 
befruchteten Eizelle sowie alien Korperf unktionen zugrunde 

35 liegt. 
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Auch aus [1] ist bekannt, dass sogenannte Gen- 
Expressionsraten, welche ein Gen-Expressionsmuster bilden, 
eine Beschreibung bzw. Representation eines regulatorischen 
genetischen Netzwerks bzw. eines aktuellen Zustands des regu 
5 latorischen genetischen Netzwerks liefern. 

Vereinfacht Oder anschauiich ausgedruckt reprasentiert somit 
ein Gen-Expressionsmuster einer Zelle einen Zustand des regu 
latorischen genetischen Netzwerks dieser Zelle. 

Ferner ist bekannt , dass unter Verwendung von Hochdurchsat z- 
Genexpressions-Messungen (Microarray-Daten) diese Gen- 
Expressionsraten messbar sind. Die Microarray-Daten beschrei 
ben wiederum Moment aufnahmen des Gen-Expressionsmusters . 

Viele Krankheiten und Fehlf unktionen des Korpers gehen auf 
Stdrungen des regulatorischen genetischen Netzwerks zuruck, 
welche sich in eine stark veranderten Gen- 

Expressionsverhalten (Gen-Expressionsraten) bzw. einem veran 
derten Gen-Expressmuster einer Zelle widerspiegeln . 

Somit stellt ein VerstSndnis des regulierenden genetischen 
Netzwerks einen wichtigen Schritt auf dem Weg zu einer Cha- 
rakterisierung und einem Verstehen von genetischen Mechanis- 
men sowie in weiterer Folge zu einer Identif izierung von so- 
genannten dominanten oder Funktionsstorungen auslosenden Ge- 
nen dar, welche den Krankheiten oder Fehlf unktionen zugrunde 
liegen. 

30 Beispielsweise kann in einer Krebsf orschung, bei der die I- 
dentif izierung von Geschwiilste und Turaore unterdruckenden Ge 
nen eine Schlusselrolle spielt, die Kenntnis neuer potenziel 
ler Onkogene und ihre Wechselwirkung mit anderen Genen ein 
Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebser 

35 krankungen) sein, welche ein Umwandlung normaler Zellen in 
bosartige Krebszellen bestimmen. 
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Weitergehend ist fttr eine Entwicklung von verbesserten Medi- 
kamenten und Therapien zur Bekampfung von genetischen Krank- 
heiten daher ebenfalls ein quantitatives Verstandnis des re- 
gulatorischen genetischen Netzwerks einer Zelle erforderlich 

So wirken einige Medikamente als Agonisten bzw. Antagonisten 
spezifischer Zielproteine, d. h. sie verstSrken oder schwa- 
chen die Funktion eines Proteins mit entsprechender Riickwir- 
kung auf das regulatorische genetische Netzwerk mit dem Ziel 
dieses zuruck in einen normalen Funktionsmodus zu bringen. 

Aus [2] ist eine Beschreibung eines regulatorischen geneti- 
schen Netzwerks einer Zelle unter Verwendung eines statisti- 
schen Verfahrens, eines kausalen Netzes, bekannt. 

Aus [3] ist ein kausales Netz, ein Bayesianisches (Bayess- 
ches) Netzwerk, bekannt, ' 

Bayessche Netzwerke 

Ein Bayessches Netzwerk B ist ein spezieller Typ der Darstel 
lung einer gemeinsamen multivariaten Wahrscheinlichkeitsdich 
tefunktion (WDF) einer Menge von Variablen X durch ein gra- 
phisches Modell . 

Es ist durch einen gerichteten azyklischen Graphen (directed 
acyclic graph, DAG) G definiert, in welchem jeder Knoten i = 
l r . n einer Zuf allsvariablen X± entspricht. 

Die Kanten zwischen den Knoten reprSsentieren statistische 
Abhangigkeiten und konnen als Kausalzusammenhange zwischen 
ihnen interpret iert werden. Der zweite Bestandteil des Bay- 
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esschen Netzwerkes ist die Menge von bedingten WDFen 
P(Xi|Pai, 9, G) , welche mittels eines Vektors 0 parametriert 
sind. 

5 Diese bedingten WDFen spezif izieren die Art der Abhangigkei- 
ten der einzelnen Variablen i von der Menge ihrer Elternkno- 
ten (Parents) Pai. Somit kann die gemeinsame WDF in die Pro- 
duktform 

zerlegt werden. 

Der DAG eines Bayesschen Netzwerkes beschreibt auf eindeutige 
15 Weise die bedingten Abhangigkeits- und Unabh&ngigkeitsbezie- 
hungen zwischen einer Menge von Variablen, jedoch hat im Ge- 
gensatz dazu eine gegebene statistische Struktur der WDF kei- 
nen eindeutigen DAG zur Folge. 




20 Vielmehr kann gezeigt werden, dass zwei DAG ein und -dieselbe 
WDF beschreiben, dann und nur dainn, wenn sie dieselbe Menge 
von Kanten und dieselbe Menge von "Colliders" aufweisen, wo- 
bei ein Collider eine Konstellation ist, in welcher wenigs- 
tens zwei gerichtete Kanten zu demselben Knoten fuhren. 

25 

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren an- 
zugeben, welches eine Analyse eines regulatorischen geneti- 
schen Netzwerks einer Zelle, beispielsweise reprasentiert 
durch ein Gen-Expressionsmuster der Zelle, ermoglicht. 

30 

Ferner liegt der Erfindung die Aufgabe zugrunde, ein Verfah- 
ren anzugeben, welches eine Identif ikation eines defekten 



200309564 



■ - 5 
Gens, beispielsweise eines Onko- oder Tumor-Gens, in dem re- 

gulatorischen genetischen Netzwerk einer Zelle ermoglicht. 

Weiter soil die Erfindung eine Simulation und/oder eine Ana- 
5 lyse einer Wirkweise eines Medikaments auf das regulatorische 
genetische Netzwerk einer Zelle ermdglichen. 

Diese Aufgabe wird durch das Verfahren, durch das Computer- 
programm mit Programmcode-Mitteln und das Computerprogramm- 
Produkt zur Analyse eines regulatorischen genetischen Netz- 
werks einer Zelle mit den Merkmalen gemafi dem jeweiligen un- 
abhangigen Patentanspruch gelost. 

Bei dem grundlegenden Verfahren zur Analyse eines regulatori- 
schen genetischen Netzwerks einer Zelle wird ein kausal,es 
Netz verwendet, 

- welches kausale Netz das regulatorische genetische Netz- 
werk der Zelle beschreibt derart, dass Knoten des katisalen 
Netzes Gene des regulatorischen genetischen Netzwerks rep- 
rasentieren und Kanten des kausalen Netzes regulatorische 
Wechselwirkungen zwischen den Genen des regulatorischen 
genetischen Netzwerks reprasentieren. 

• Bei dem Analyseverf ahren ,wird nun fur ein .ausgewahltes Gen 
des regulatorischen genetischen Netzwerks* eine Gen- 
Expressionsrate vorgegeben. Unter Verwendung des kausalen 
Netzes wird fur die vorgegebene Gen-Expressionsrate ein re- 
sultierendes Gen-Expressionsmuster fur das regulatorische ge- 
netische Netzwerk generiert. Das generierte resultierende 
30 Gen-Expressionsmuster wird anschlieiiend mit einem vorgegebe- 
nen Gen-Expressionsmuster des regulatorischen genetischen 
Netzwerks verglichen. 

Das Computerprogramm mit Programmcode-Mitteln ist eingerich- 
35 tet, urn alle Schritte gemafi dem erf indungsgemafien Verfahren 
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durchzufiihren, wenn das Programm auf einem Computer ausge- 
fiihrt wird. 

Das Computerprogramm-Produkt mit auf einem maschinenlesbaren 
5 Trager gespeicherten Programmcode-Mitteln ist eingerichtet, 
urn alle Schritte gemali dem erf indungsgemalien Verfahren durch- 
zufiihren, wenn das Programm auf einem Computer ausgefiihrt 
wird. 

Die Anordnung sowie das Computerprogramm mit Programmcode- 
Mitteln, eingerichtet urn alle Schritte gemali dem erfinderi- 4 
schen Verfahren durchzuf iihren, wenn das Programm auf einem 
Computer ausgefiihrt wird, sowie das Computerprogramm-Produkt 
mit auf einem maschinenlesbaren Trager gespeicherten Pro- 
grammcode-Mitteln, eingerichtet um alle Schritte gemali dem 
erf inderischen Verfahren durchzuf iihren, wenn das Programm auf 
einem Computer ausgefiihrt wird, sind insbesondere geeignet 
zur Durchf iihrung des erf indungsgemalien Verfahrens oder einer 
seiner nachfolgend erlauterten Weiterbildungen. 

Eine probabilistische Semantik eines kausalen Netzes, wie ei- 
nes Bayesschen Netzwerkes, ist zur Analyse von Gen- A 
Expressionsraten, beispielsweise gegeben in Form von Microar-^ 
ray-Daten, sehr gut geeignet, da sie an die stochastische Na- 
tur sowohl von biologischen Prozesse als auch von mit einem 
Rauschen behafteten Experimente angepasst ist. 

Ferner wird, anschaulich gesehen, ein Effekt eines Express!- 
onszustandes bestimmter Gene auf ein globales Gen- 
30 Expressionsmuster (inverse Modellierung) geschatzt, indem ein 
resultierendes Gen-Expressionsrnuster analysiert wird . 
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Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Ansprtichen. 

Die im weiteren beschriebenen Weiterbildungen beziehen sich 
5 sowohl auf die Verfahren als auch auf die Anordnung. 

Die Erfindung und die im weiteren beschriebenen Weiterbildun- 
gen konnen sowohl in Software als auch in Hardware, bei- 
spielsweise unter Verwendung einer speziellen elektrischen 
10 Schaltung, realisiert werden. 

. Ferner ist eine Realisierung der Erfindung oder einer im wei- 

teren beschriebenen Weiterbildung moglich durch ein computer- 
lesbares Speichermedium, auf welchem das Computerprogramm mit 
15 Programmcode-Mitteln gespeichert ist, welches die Erfindung 
oder Weiterbildung ausfiihrt. 

Auch kann die Erfindung oder jede im weiteren beschriebene 
Weiterbildung durch ein Computerprogrammerzeugnis realisiert 
sein, welches ein Speichermedium aufweist, auf welchem das 
Computerprogramm mit Programmcode-Mitteln gespeichert ist, 
welches die Erfindung oder Weiterbildung ausfuhrt. . • 

Bei einer Weiterbildung wird das ausgewahlte Gen unter Ver- 
wendung des kausalen Netzes mittels einer Abhangigkeitsanaly- 
se ausgewahlt. 

Auch kann die Gen-Expressionsrate des ausgewahlten Genes der- 
art vorgegeben werden, dass die vorgegebene Gen-Expressrate 
des ausgewahlten Genes eine Annahme eines Gendefekts wider- 
spiegelt . 

Als kausales Netz kann ein Bayesianisches bzw. Bayessches 
Netz verwendet werden. 
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Auch kann das kausale Netz von einem Typ DAG (directed acylic 
graph) sein. 

5 Ferner kann bzw. konnen das generierte resultierende und/oder 
das vorgegebene Gen-Expressionsmuster diskrete Genzustande 
reprSsentieren, wobei die reprSsentierten diskreten Gen- 
zustande ein iiber-, ein normal-, ein unterexprimierten Gen- 
zustand sein kdnnen. 

10 

Bei einer Weiterbildung wird der Vergleich des generierten 
resultierenden Gen-Expressionsmuster mit dem vorgegebenen 
Gen-Expressionsmuster unter Verwendung eines statischen Ver- 
fahrens und/oder einer statistischen Kennzahl, insbesondere 
15 eines Abstandsmafies, durchgef uhrt . 

Auch kann vorgesehen werden, dass das kausale Netz unter Ver- 
wendung von Gen-Expressionsmustern trainiert wird, wobei die 
Knoten und die Kanten des kausalen Netzes angepasst werden. 

20 

Ferner ist es zweckmafiig, dass die Gen-Expressionsmuster, 
insbesondere das vorgegebene Gen-Expressionsmuster und/oder 
die Gen-Expressionsmuster fur das Training, bestimmt werden 
unter Verwendung einer DNA-Micro-Array-Technik. 

25 

Bei einer Ausgestaltung ist das vorgegebene Gen- 
Expressionsmuster und/oder die Gen-Expressionsmuster fur das 
Training ein Gen-Expressionsmuster eines genetischen regula- 
torischen Netzwerks einer kranken Zelle* 

30 

Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle 
sein, insbesondere eine Onko-Zelle mit ALL (Akute 
lymphoblastische Leukamie) . 



Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere 
ein ALL-Onko-Gen, aufweisen. 
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Auch kann far eine Vielzahl von ausgewahlten Genen des regu- 
latorischen genetischen Netzwerks jeweils eine Gen- 
Expressionsrate vorgegeben werden, eine Vielzahl von resul- 
tierenden Gen-Expressionsmustern generiert werden und/oder 
5 eine Vielzahl von Vergleichen durchgefuhrt werden. 

Bei einer Weiterbildung wird die Generierung der Vielzahl von 
resultierenden Gen-Expressionsmustern iterativ durchgefuhrt. 

Ferner eignet sich die erf inderische Vorgehensweise oder Wei- 
terbildung davon insbesondere zur Identif izierung eines domi- 
nanten Gens und/oder eines degenerier- 

ten/mutierten/kranken/onkogenen/Tumor-suppressor Gens . 

Auch eignet sie sich zur Identif izierung einer Tumor zelle; 
beispielsweise im Zusammenhang mit einer Krebserkennung. 

Ferner ist die erf inderische Vorgehensweise insbesondere ge- 
eignet zu einer Ursachenanalyse fur ein abnormales Gen- 
Express ionsmuster /Gen-Express rate . 

Auch kann sie eingesetzt werden zu einer Simulation und/ocfer 
Analyse einer Wirkweise eines Medikaments. 

W **W In Figuren ist ein Ausf tihrungsbeispiel der Erf indung darge- 
stellt, welches im weiteren naher erlautert wird. 

Es zeigen 

30 Figur 1 eine Skizze einer Vorgehensweise bei der Untersuchung 
genetisch bedingter Krankheitsursachen durch Bayess- 
che inverse Modellierung am Beispiel einer Krebser- 
krankung; 



35 



Figur 2 eine Skizze mit einem Algorithmus zur Erzeugung eines 
Datensatzes von N Stichproben gemafi einem Ausfuh- 
rungsbeispiel ; 
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Figur 3 eine Skizze fur eine Vorgehensweise zur Erzeugung von 
Datensatze, welche eine Auswirkung von verschiedenen 
Beobachtungen widerspiegeln gemafi einem Ausflihrungs- 
5 beispiel; 



Figuren 4a und b Skizzen die zeigen, dass durch eine 
Stichprobenentnahme gewonnene Daten Untertyp- 
charakteristische Expressionsmuster zeigen wie auch 
10 in einem ursprQnglichen Datensatz; 



Figur 5 eine Skizze, die graphisch zeigt eine Wahrscheinlich- 
keit jedes Untertyps unter einer Bedingung, dass ein 
Gen uberexprimiert ist, fur alle 271 Gene; 

15 

Figur 6 eine Skizze einer Graphenstruktur eines kausalen 

Netzwerks, welches ein regulatorisches genetisches 
Netzwerk reprasentiert . 



20 



Ausf iihrungsbei spiel : Untersuchung genetisch bedingter Krank- 
heitsursachen durch Bayessche inverse Modellierung am Bei- 
spiel einer Krebserkrankung (insb. Fig.l) 

Uberblick fiber die Vorgehendweise - Bayessche inverse Model- 
lierung (BIM) 

Auf vielen Gebieten der empirischen Forschung mochte man aus 
der Beobachtung von Versuchsergebnissen auf das zugrundelie- 
gende Prinzip und dessen Ursprung schlieiien - die Beziehung 
zwischen "Ursache" und "Wirkung" . 
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Zum Beispiel wird in der Krebsf orschung das zugrundeliegende 
Prinzip studiert, welches bewirkt, dass sich eine normale 
Zelle in eine bosartige, schnell wachsende Krebszelle verwan- 
delt. 

Die Auswirkung der verschiedenen Arten des Krebses ist be- 
kannt, z. B. das allgemeine Erscheinungsbild einer Krebszelle 
im Vergleich zu einer normalen Zelle, gemessen mit Hilfe von 
Microarray-Chips . 

Dagegen ist die Ursache ihrer Entstehung grofitenteils unbe- 
kannt . 

Aufgrund der Einsicht, dass Krebs eine genetische Krankheit 
ist und dass er auf eine Abweichung des Verhaltens der Zellen 
zurttckzufuhren ist, konzentriert sich die Forschung auf die A 
Aufdeckung der genetischen Prinzipien, die fur die Entwick- 
lung des Krebses verantwortlich sind. 

Eine wichtige Aufgabe in diesem Umfeld ist es, Gene zu iden- 
tifizieren, welche bei der Tumorgenese eine Rolle spielen 
konnen, wie etwa Geschwulste und Tumore unterdruckende Gene. 

Nachfolgend wird eine Vorgehensweise beschrieben, mit der es 
moglich ist, Gene zu identif izieren, die eine potenzielle Ur- 
sache far die Tumorgenese sind. 

Ein Element der Vorgehensweise ist ein statistisches Verfah- 
ren, in diesem Fall ein Bayesianisches (Bayessches) Netzwerk 
[3] (siehe obige und nachfolgende Ausfuhrungen dazu) , welches 
aus einem Microarray-Datensatz [1] gelernt wird [2] (siehe 
nachfolgend dazu "Strukturelles Lernen") (vgl. Fxg.l ) . 
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Dabei wird angenommen, dass die Menge der gemessenen Gen- 
expressionsvektoren X einer Grundgesamtheit mit einer hochdi- 
mensionalen multivariaten Wahrscheinlichkeitsdichtef unktion 
angehSrt, welche mit Hilfe eines Bayesschen Netzwerkes mit 
5 adaptiver Netzwerkstruktur modelliert wird. 



Die Zusammenhange zwischen den Variablen, namlich die beding- 
ten Abhangigkeiten und Unabhangigkeiten, werden mittels eines 
gerichteten azyklischen Graphen (directed acyclic graphs DAG) 
10 G dargestellt. 

Die probabilistische Semantik eines Bayesschen Netzwerkes ist 
zur Analyse von Microarray-Daten sehr gut geeignet, da sie an 
die stochastische Natur sowohl der biologischen Prozesse als 
15 auch der mit einem Rauschen behafteten Experimente angepasst 
ist . 




Bei der nachfolgend beschriebenen Vorgehensweise wird das ge- 
lernte Bayessche Netzwerk als ein generatives Modell zur 
20 Stichprobenentnahme von kiinstlichen Microarray-Datensatzen 

verwenden, welches die Dichteschatzung der gelernten beding- 
ten Wahrscheinlichkeitsverteilungen liefert (vgl. Fig . 1 , 
Schritte 110 - 130) . 




25 Weiter wird der Effekt des Expressionszustandes bestimmter 

Gene auf das globale Expressionsmuster (inverse Modellierung) 
geschatzt, indem ein resultierende Datensatz analysiert wird 
(vgl. Fig.l Schritte 110 - 130 ) • 



30 



Auch wird bei der nachfolgend beschriebenen Vorgehensweise 
jedem Gen seine Wahrscheinlichkeit zugeordnet, mit der es die 
Ursache eines dieser Zellzustande ist. 
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Dazu werden diese Datensatze mit aus Microarray- 
Untersuchungen von verschiedenen bekannten Zellzustanden er- 
haltenen Daten verglichen (vgl. Fig.l, Schritt 130 ) . 

5 Anschaulich gesehen, konzentriert sich die Vorgehensweise 

nicht explizit auf die Struktur des Netzwerkes, sondern viel- 
mehr auf die Wahrscheinlichkeitsverteilung, die durch das ge- 
lernte Bayessche Netzwerk abgeleitet wird. 

Schliefilich wird die Vorgehensweise auf Microarray-Daten von 
verschiedenen Untertypen von padiatrischer akuter 
Lymphoblasten-Leukamie (ALL) von Yeoh et al. [4] angewendet. 

Durch den Vergleich der kunstlichen Daten mit Expressionsmus- 
tern von spezifischen Krebs-Untertypen erhalt man ein Wahr- • 
scheinlichkeitsmaft des krankheitserzeugenden Verhaltens jedes 
Gens (vgl. Fxg.l, Schritt 130 ) . 

Ergebnisse der angewendeten Vorgehensweise zeigen, dass diese 
in Verbindung mit der Bayesschen inversen Modellierung (BIM) 
es ermoglicht, die Auswirkung von pathogenetisch veranderten 
Expressionsniveaus auf das globale Expressionsmuster vorher- 
zusagen, wobei bereits bekannte Onkogene ebenso wie poten- 
ziell neue gefunden werden. 

Bayessche Netzwerke 

Im Obigen wurden bereits Grundlagen von Bayesschen Netzen [3] 
beschrieben. 
30 

Im Falle der Modellierung eines regulierenden genetischen 
Netzwerkes durch ein Bayessches Netzwerk werden Gene bzw. ih« 
re entsprechenden Proteine durch Knoten symbolisiert . 
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Regelungsmechanismen werden durch Kanten zwischen zwei Knoten 
beschrieben, welche auf eine kausale Art und Weise interpre- 
tiert werden konnen. 

Die Qualitat der Regulierung ist in der bedingten Wahrschein- 
lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- 
latoren desselben codiert. 

Strukturelles Lernen 

Der Vorgang des strukturellen Lernens kann wie folgt be- 
schrieben werden: 

Sei D = {d 1 , d 2 , . d®} ein Datensatz von N unabhangigen Be- 
obachtungen, wobei jeder Datenpunkt ein n-dimensionaler Vek- 
tor mit Komponenten d 1 = {d x lr d^z, d^} ist. Bei gegebe- 

nem D ist die Struktur G des Bayesschen Netzwerkes zu finden, 
welche am besten mit D tibereinstimmt , d. h. welche die Bayes- 
Punktbewertung (Bayes-Score) 



Apriori-Wahrscheinlichkeit der Struktur und P{D) die Evidenz 
ist. 

Da sowohl die Apriori-Wahrscheinlichkeit als auch die Eviden 
unbekannt sind, reduziert sich das Problem auf das Ermitteln 
der Struktur mit der besten Randwahrscheinlichkeit entspre- 
chend den Daten (Heckerman et al. [5]). 



(2) 




pimomG) 



maximiert, wobei P(D\G) die Randwahrscheinlichkeit, P{G) die 
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Wenn der Datensatz D aus N Microarray-Experimenten besteht, 
z. B. aus Zellproben von unterschiedlichen Patienten, repra- 
sentiert jeder Datenvektor {d 1 lr d^ 2f . d^ n ) das Expressi- 
5 onsprofil von n Genen in einem Microarray-Experiment . 

Ein aus solchen Daten gelerntes Bayessches Netzwerk codiert 
die Wahrscheinlichkeitsverteilung von n Genen, die aus diesen 
N Microarray-Experimenten erhalten wurden. 

10 

Bayessche inverse Modellierung (BIM) 
Generatives Modell 

15 Ein gelerntes (siehe obige Ausfuhrungen zu "Strukturelles 
Lernen") Bayessches Netzwerk B stellt eine Dichte- 
Schatzfunktion dar, welche die Wahrscheinlichkeitsverteilung 
des Datensatzes D, von dem ausgehend es gelernt wurde, mit 
Hilfe der Menge der bedingten WDFen widerspiegelt . 

20 

Somit kann es als ein generatives Modell zur Erzeugung eines 
Datensatzes D B verwendet werden, welcher die aus D erhaltene 
Dichteverteilung widerspiegelt . 

25 Fig. 2 zeigt einen Algorithmus 200 zur Erzeugung eines Daten- 
satzes von N Stichproben aus B. 

Der erste Schritt 210 des Algorithmus 200 besteht darin, alle 
Variablen so zu ordnen, dass die Parents (Elternknoten) Pa± 
30 vor Xi instantiiert werden. 



Anschliefiend werden die Variablen entsprechend der Ordnung 
gewahlt und mit einem Wert instantiiert 220. 
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Der Wert jeder Variablen wird mit Wahrscheinlichkeit 
P(Zustand| Pa±) gewShlt. Dieser Schritt wird wiederholt 230 , 
bis N Stichproben erzeugt sind. 

5 

Probabilistische Interferenz 

Ein wesentliches Problem in Bayesschen Netzwerken ist die E~ 
videnz-Fortpf lanzung, das heifit, die Ermittlung der Aposteri- 
10 ori-Verteilungen P{X q \E) einer Abf ragevariablen X qr wenn eine 
gewisse Evidenz E im Bayesschen Netzwerk beobachtet worden 
ist . 

Aufgrund der Definition einer bedingten Wahrscheinlichkeit 
15 ist die Aposteriori-Wahrscheinlichkeit 



(3) 

20 



wobei X E die Menge der beobachteten Variablen bezeichnet. 

25 Um die Zeitkomplexitat zu Uberwinden, verwenden die verschie 
denen Methoden der exakten Interf erenzberechnung das allge- 
meine Prinzip der dynamischen Prografnmierung. 



Im Rahmen dieses Ausf uhrungsbeispiel wird ein einfacher In- 
30 terf erenzalgorithmus, der "bucket elimination" [6], verwen- 
det . 
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Die Gruncliciee bei diesem Interf erenzalgorithmus besteht dar- 
in, Variablen eine nach der anderen entsprechend einer Elimi- 
nationsreihenfolge p durch Summieren zu eliminieren. 

5 Auf diese Weise kann P(X q \E) innerhalb einer annehmbaren Zeit 
effizient berechnet werden. 

Interventionelle Modellierung durch Einstellen der Evidenz 

Bei der Herangehensweise der interventionellen Modellierung 
wird die Auswirkung einer bestimmten Beobachtung auf das Ver- 
halten des Bayesschen Netzwerkes unter Verwendung einer Kom- 
bination von probabilistischer Interferenz und Daten- 
Stichprobenentnahme geschatzt. 

Entsprechend Fig, 3 kann das Bayessche Netzwerk als eine Art 
Black Box 300 angesehen werden, wobei der Eingang durch eine 
Menge von Beobachtungen E 310 und die entsprechende Liste von 
beobachteten Variablen X B 320 gegeben ist. 

Der Ausgang, der durch den Datensatz D B]E 330 gegeben ist, 
wird wie im Vorigen zugehorig zu Fig, 2 beschrieben erzeugt. 

Zusatzlich ist die beobachtete Evidenz zu beriicksichtigen. 

Folglich wird jeder Zustand von X± mit Wahrscheinlichkeit 
P ( Zustand | Pa± , E) gewahlt, welche mittels probabilistischer ' 
Interferenz berechnet wird, 

Mit beschriebener Vorgehensweise gemaB Fig ,3 konnen nun un- 
terschiedliche Datensatze erzeugt werden, welche die Auswir- 
kung der verschiedenen Beobachtungen widerspiegeln . 

/ 
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Wenn wie nachfolgend beschrieben biologische Auswirkungen a- 
nalysiert werden, heifit das, dass durch diese Vorgehensweise 
gemali Fig ,3 kiinstliche Microarray-Daten erzeugbar sind, wel- 
che die Wahrscheinlichkeitsverteilung eines gewissen Daten- 
satzes widerspiegeln, wenn bestimmte Beobachtungen gegeben 



Vergleicht man die kunstlich erzeugen Daten mit Daten von be- 
kannter Herkunft, z. B. mit einer krebsspezif ischen Menge von 
Messdaten, konnen jene Gene bestimmt werden, welche, wenn sie 
auf einem gewissen Expressionsniveau fixiert werden, das Mo- 
dell so beeinflussen, dass die beiden Microarray-Datensatze, 
der kunstliche und der bekannte, dieselben Eigenschaf ten auf- 
weisen. 

Statistischer Vergleich von Datensatzen 

Um die Qualitat des Einflusses der Evidenz E auf das Verhal- 
ten des Bayesschen Netzwerkes B zu schatzen, wird der erzeug- 
te Datensatz D b \e mit einer Menge von Datensatzen D von be- 
kannten Zustanden S verglichen. 

Es wird angenommen, dass D die Auswirkung verschiedener 
Krebsarten beschreibt. AusfuhrungsgemSft kann nun das Verhal- 
ten von Evidenz E in Bezug auf eine bestimmte Krebsart S be- 
schrieben werden. 

Unter Verwendung eines Abstandsmafies wird die Anderung a de 
Korrelation zwischen D B \e und D s infolge von E schatzbar: 



sind. 



(4) 
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wobei der Abstand zwischen den zwei Datensatzen mit Hilfe des 
Abstands zwischen D B , welches aus B ohne Evidenz entnommen 
wurde, und D s normiert wurde. 

5 Folglich ist ausf lihrungsgemall der Einfluss einer beobachteten 
Evidenz messbar, z. B. der Expressionszustand eines bestimm- 
ten Gens auf ein fur Krebs charakteristisches Verhalten des 
Modells . 

Zweitens ist die Wahrscheinlichkeit dafiir berechenbar, dass B 
einen Datensatz D B \e erzeugt, welcher gleich D s bei gegebenem 
JE7 ist. 

*» 

Zu diesem Zweck wird geschatzt, wie viele Stichproben d 1 von 
D B \e am nachsten bei D s liegen, indem der Abstand zwischen je-^ 
der Stichprobe und jedem Datensatz von D berechnet wird; 

Somit erhalt man die Aposteriori-Wahrscheinlichkeit P{S]E) 
des Auftretens der Krebsart S bei gegebener Evidenz E aus: 

(5, _ ^ 

wobei N ES die Anzahl der Stichproben von D B \ E ist, welche sta- 
tistisch dem Datensatz D s am nSchsten kommen, und wobei N die 
Gesamtzahl der Stichproben von D B \e ist. 

Wie bereits im Obigen konstatiert beschaftigt sich die empi- 
rische Forschung mit der Beziehung zwischen Ursache und Wir- 
kung, indem sie aus einer experimentellen Beobachtung Ruck- 
30 schliisse auf die zugrundeliegende Ursache zieht. 

Mit der Herangehensweise der Bayesschen inversen Modellierung 
gemaft dem Ausfiihrungsbeispiel wird eine zugrundeliegende Ur- 
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sache geschatzt, indem zuerst eine Wirkung erzeugt wird, die 
aus einer bekannten Beobachtung hervorgeht. 

Nach diesem inversen Schritt wird diese Wirkung mit Wirkungen 
5 verglichen, welche wohldef iniert sind, deren Ursache jedoch 
unbekannt ist. 

Die potenzielle Ursache der am besten ubereinstimmenden Wir- 
kung ist dann durch die Beobachtung gegeben f welche die er- 
10 zeugte Wirkung hervorruft. 

Der ALL-Microarray-Datensatz von Yeoh et al. [4] 

Die Daten, die far die Analyse gemafi dem Ausf uhrungsbeispiel 
15 verwendet werden, bestehen aus 327 Stichproben von verschie- 
denen Untertypen von padiatrischer akuter Lymphoblasten- 
Leukamie (ALL) . 

Der Datensatz wurde von Yeoh und seinen Kollegen vom St. Jude 
20 Children's Research Hospital [4] zusammengestellt . 

ALL ist eine heterogene Krankheit, die verschiedene Unterty- 
pen umfasst, einschliefilich sowohl Leukamie vom T-Zelltyp al 
auch Leukamie vom B-Zelltyp, die sich hinsichtlich ihrer Re- 
25 aktion auf eine medizinische Behandlung deutlich unterschei- 
den. 

Abgesehen von T-ALL, deren Ursache noch nicht klar bekannt 
ist, kann jeder B-Zellen-Untertyp auf eine spezifische gene- 
30 tische Veranderung zuruckgef iihrt werden, z. B. auf genetische 
Translokationen t(9;22) [BCR-ABL] f t(l;19) [E2A-PBX1] , 
t(12;21) [TEL-AML1] r t(4;ll) [MLL] oder auf einen hyper- 
diploiden Karyotyp [> 50 Chromosomen] . 
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Daher ist es nicht verwunderlich, dass die Expressionsmuster 
der verschiedenen Untertypen recht deutlich voneinander un- 
terscheiden. 

Ferner zeigen Microarray-Daten noch ein anderes deutliches 
Expressionsprof il, welches auf die Existenz eines w.eiteren 
ALL-Untertyps zusatzlich zu den 6 bekannten hindeutet. 

Es soil angemerkt werden, dass Yeoh et al. [4] an einem ro- 
busten Klassif ikator zur Klassif izierung der Untertypen unter 
Verwendung einer Stutzvektor-Maschine mit einem Satz von 271 
diskriminierenden Genen arbeitet. 

Ergebnisse 
Gelernte Struktur 

Fur die Analyse gemafi dem Ausf uhrungsbeispiel wird der redu- 
zierte Datensatz von 271 Genen and 327 Stichproben von ver- 
schiedenen ALL-Untertypen [4], wie oben beschrieben, verwen- 
det . 

Dm den Lernvorgang eines multivariaten Modells durchzufuhren, 
wurde der Datensatz in die Werte "unterexprimiert " , "normal 
exprimiert" und "uberexprimiert" diskretisiert . 

Die gelernte Struktur zeigt "mafistabf reie" (scale-free) Kenn- 
groJien, ein Merkmal r welches fur biologische Netze, wie etwa 
fur metabolische Netze oder Signalisierungsnetze, typisch 
ist . 
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Solche Netze sind durch eine Potenzverteilung des Grades 
(Ranges) eines Knotens gekennzeichnet , welcher als die Anzahl 
der Verbindungen mit anderen Knoten definiert ist. 



10 



15 



20 



Diese Knoten besitzen einen starken Einfluss auf die Dynamik 
und Robustheit von "mafistabf reien" Netzen, und von vielen 
dieser in starkem Mafie verbundenen Gene in unserem Modell ist 
tatsachlich bekannt, dass sie eine Rolle bei der Onkogenese 
Oder bei mit der Krebsentwicklung zusammenhangenden kriti- 
schen Prozessen spielen, z. B. DNA-Reparatur . 

Zuerst wird nun ein Datensatz von 300 Stichproben aus dem Mo- 
dell erzeugt, urn die Statistiken zu sch&tzen, die durch die 
Menge der bedingten Wahrscheinlichkeiten definiert sind. 

Fig. 4 zeigt, dass die durch die Stichprobenentnahme gewonne- 
nen Daten ( Fig. 4b ) Untertyp-charakteristische Expressionsmus- 
ter zeigen, so wie dies auch im ursprunglichen Datensatz 
( Fig. 4a ) der Fall ist. 

Die Muster einiger Untertypen, wie etwa E2A-PBX1 oder T-ALL, 
werden sehr gut reproduziert , wahrend einige andere weniger 
gut generiert werden, z. B. das Muster des Untertyps MLL, o- 
der vollig verfehlt werden, wie etwa BCR-ABL. 





25 



Modellierung von Leukamie-Untertypen durch Intervention 

30 

Das gelernte Bayessche Netzwerk ist die Ausgangsbasis bei dem 
Ausfuhrungsbeispiel fur die Herangehensweise, mittels inver- 
ser Modellierung diejenigen Gene zu finden, welche, wenn sie 
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auf einem bestimmten Expressionsniveau fixiert werden, das 
Modell so beeinf lussen, dass der generierte kiinstliche Micro- 
array-Datensatz spezifische Merkmale aufweist. 

Wie im Obigen beschrieben wurde, wird die Wahrscheinlichkeit 
P(C\E) der Erzeugung eines bestimmten Krebs-Untertyps C ge- 
schatzt, wenn eine gewisse Beobachtung E gegeben ist, in die- 
sem Falle der Expressionszustand eines bestimmten Gens 
P(C| Gen±=Zustand) . 

Im Gegensatz zu Yeoh wird nicht nur das Vorliegen eines be- 
stimmten Krebs-Untertyps vorhergesagt , sondern genetische Me- 
chanismen, die zu seiner Erzeugung fuhren. t; ; . 

Eine hohe Wahrscheinlichkeit sagt voraus, dass die fixierten 
Gene eine potenzielle Drsache fur das Untertyp-spezif ische 
Expressionsverhalten der fraglichen Gene ist, welches wieder- 
um die zugrundeliegende Ursache fur ein spezifisches kanzero- 
ses Erscheinungsbild sein kann. 

Fur den Vergleich werden 7 Ref erenz-Datensatze verwendet, • wo- 
bei jeder von* ihnen in Verbindung mit einem spezifischen ALL- • 
Untertyp erhalten wurde. 

5 Fig . 4a zeigt, dass der ursprungliche Microarray-Datensatz 
deutlich in 7 Cluster (Punkthauf en) mit unterschiedlichen 
Stichprobenumfangen unterteilt ist. 

Jeder dieser Cluster reprasentiert das Expressionsmuster von 
0 271 Genen, wenn ein bestimmter Leukamie-Untertyp gegeben ist, 
und wurde verwendet, um den Einfluss einer Evidenz . auf das 
Auftreten dieser verschiedenen ALL-Untertypen zu messen. 
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In einem ersten Schritt wirci jedes Gen bei irgendeinem seiner 
Expressionswerte fixiert, wobei alle diese Bedingungen ver- 
wendeten werden, urn einen Datensatz von 300 Stichproben zu 
generieren ( Fig. 4b ) . 

5 

Anschlieiiend werden alle diese Daten mit den 7 Referenz- 
Datensatzen, wie vormals erlautert, verglichen. 

In Fig. 5 ist die Wahrscheinlichkeit jedes Untertyps unter der 
10 Bedingung, dass ein Gen uberexprimiert ist, fUr alle 271 Gene 



graphisch dargestellt. 




Fig. 5 zeigt, dass eine kleine Anzahl von Genen existiert, 
welche einen bestimmten ALL-Untertyp mit einer hohen Wahr- 
15 scheinlichkeit hervorrufen, wenn sie stark aktiv sind. 

Um diese Ergebnisse zu beweisen, wird die molekulare Funktion 
gewisser Gene und ihre Rolle in biologischen Prozessen, ins- 
besondere im Hinblick auf die Pathogeneses nachfolgend einge- 
20 hender betrachtet. 



Biologische Einblicke 




Dazu werden die Gene naher betrachtet, die mit einer hohen 
25 Wahrscheinlichkeit einen bestimmten Untertyp verursachen, so- 
wie signifikante Strukturmuster in dem gelernten Netzwerk, 
d. h. dominante Gene und ihre Umgebung. 

Das gelernte Bayessche Netzwerk (Modell) resultiert aus einem 
30 Microarray-Datensatz von unterschiedlichen Leukamie- 

Untertypen und spiegelt transskriptionale Beziehungen zwi- 
schen Genen wider, die in diesen bosartigen Krebszellen auf- 
treten. 
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Somit sind Gene, die einen bestimmten Untertyp hervorrufen, 
entweder potenzielle Onkogene oder werden durch solche Gene 
reguliert. 

Das erste Gen, welches eingehender analysiert wird, ist das 
Gen PBX1. 

Wenn es . Uberexprimiert ist, erzeugt das gelernte Bayessche 
Netzwerk mit einer Wahrscheinlichkeit von 0,96 einen Daten- 
satz, welcher fur den Untertyp E2A-PBX1 der ALL vom B-Zelltyp 
charakteristisch ist (siehe Fig. 5 ) . 

Dies legt die Vermutung nahe, dass ein kausaler Zusammenhang 
zwischen der "Oberexprimiertheit " dieses Gens und dem Auft re- 
ten des ALL-Untertyps E2A-PBX1 vorhanden ist. 

Und tatsachlich ist PBX1 als ein Protoonkogen bekannt, wel- 
ches die Verwandlung von normalen Blutzellen in bSsartig'e 
ALL-Krebszellen verursacht. 

Infolge der Chromosomen-Translokation t(l;19) verschmilzt 
PBX1 mit dem Gen E2A und verwandelt sich in ein potentes On- 
kogen, welches den Leukamie -Untertyp E2A-PBX1 verursacht. 

Da ferner die Graphstruktur des Modells ( Fig. 6 ) auf eine kau- 
sale Weise interpretiert werden kann, liefert sie Informatio- 
nen uber die Wechselwirkung zwischen potenziellen Onkogenen 
und anderen Genen, was wiederum als eine onkogene Regelung 
interpretiert werden kann. 

Wenn man die Struktur des Netzwerkes ( Fig. 6 ) betrachtet, so 
stellt PBX1 ein dominantes Gen dar, indem es viele andere Ge- 
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ne beeinf lusst, jedoch nur von einem oder wenigen anderen Ge- 
nen reguliert wird. 

Zusatzlich identif iziert das Modell aufgrund der bedingten 
5 Wahrscheinlichkeitsverteilung PBX1 als einen Transkription- 
saktivator . 

Dies kann ebenfalls durch bekannte biologische Tatsachen er- 
klart werden, da PBX1 Gene aktiviert, die normalerweise ent- 
10 weder nicht exprimiert oder auf einem niedrigen Niveau expri- 
miert sind. 

Patienten mit einer Hyperdiploidie von > 50 Chromosomen haben 
Klone von 51-68 Chromosomen. Obwohl hoch hyperdiploide Klone 
15 selten identisch sind, neigen sie dazu, ein Muster des Chro- 
mosomen zuwachses mit zusatzlichen Kopien der Chromosome 4, 6, 
10, 14, 18 und 21 aufzuweisen. 



20 



25 



30 




Trisomie und Polysomie 21 sind nicht zufallige Anomalien, 
welche bei ALL haufig zu beobachten sind. Ihr Auftreten, auch 
wenn es nicht spezifisch ist, sowie das gehaufte Auftreten 
von akuter Leukamie bei Subjekten mit konstitutioneller Tri- 
somie 21 legen die Vermutung nahe, dass das Chromosom 21 ein 
besondere Rolle bei der Leukamogenese spielt. 

Eine andere Krankheit, das Down-Syndrom, wird durch Trisomie 
21 verursacht und zeigt ein verstarktes Auftreten von Leuka- 
mie wie etwa ALL. 

Demzufolge ermoglich in diesem Fall die beschriebene Vorge- 
hensweise gem^U dem Ausf uhrungsbeispiel Gene zu identifizie- 
ren, die in hohem Mafie auf den hyperdiploiden ALL-Untertyp 
hinweisen, von denen jedoch auch bekannt ist, dass sie eine 
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wesentliche Rolle bei der Entstehung des Down-Syndroms spie- 
len. 

Das Gen SOD1 befindet sich am Chromosom 21 und produziert ein 
Enzym, welches superoxidf reie Radikale in Wasserstof f peroxid 
umwandelt. Die verstarkte Expression bei Trisomie 21 , welche 
auch bei den Microarray-Stichproben von Patienten mit hyper- 
diploidem Karyotyp zu beobachten ist, kann die Hirnschadigung 
auslosen, die beim Down-Syndrom zu erkennen ist. 

Die Haufigkeit des Auftretens des hyperdiploiden ALL- 
Untertyps erhoht sich auch in dem Falle, wenn das Gen PSMD10 
uberexprimiert ist. 

PSMD10 ist eine regulierende Unter-Einheit des Proteasoms 
26S, von dem nachgewiesen wurde, dass es als ein natiirlicher 
Mechanismus fur den. Abbau von Proteinen durch Regulierung des 
Proteinumsatzes in eukaryotischen Zellen wirkt. 

Dies ist bei Krebserkrankungen des Menschen von Bedeutung, da 
der Zellzyklus, das Tumorwachstum und das Oberleben durch ei- 
ne grofie Vielfalt an intrazellul&ren Proteinen bestimmt wer- 
den, welche durch den Ubiquitin-abhangigen Proteasom-Abbauweg 
geregelt werden, der von PSMD10 beeinflusst wird. 

In neueren wissenschaf tlichen Arbeiten auf diesem Gebiet wur- 
de nachgewiesen, dass dieser Abbauweg oft Gegenstand einer 
mit Krebs zusaramenhangenden Deregulierung ist und solchen 
Prozessen unterliegen kann, wie onkogener Transformation, Tu- 
morprogression, Umgehung der Immunuberwachung und Arzneimit- 
telresistenz . 

Zusammenfassung des Ausf iihrungsbeispiels 



200309564 



28 

Das beschriebene Ausf iihrungsbeispiel stellt eine neue Vorge- 
hensweise vor, mit der es mSglich ist, Gene, die eine poten- 
zielle Ursache ftir eine Tumorgenese sind, durch Analysieren 
5 der Zusammenhange zwischen Microarray-Daten von Leukamie- 

Untertypen und einem Datensatz, der Ergebnis einer Stichpro- 
benentnahme aus einem gelernten Bayesschen Netzwerk ist, zu 
identif izieren. 

10 Basis dieser Vorgehensweise ist die Modellierung eines regu- 
lierenden genetischen Netzwerkes durch ein Bayessches Netz- 
werk, wobei Gene bzw. ihre entsprechenden Proteine durch Kno- 
ten des Bayesschen Netzwerks symbolisiert werden. 

15 Regelungsmechanismen werden durch Kanten zwischen zwei Knoten 
beschrieben, welche auf eine kausale Art und Weise interpre- 
tiert werden konnen. 

Die Qualitat der Regulierung ist in der bedingten Wahrschein- 
20 lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- 
latoren desselben codiert. 



Das Verstandnis der regulierenden genetischen Netze stellt 
einen wichtigen Schritt auf dem Weg zur Charakterisierung der 
25 genetischen Mechanismen dar, welche komplexen Krankheiten 
zugrunde liegen. 

In der Krebsforschung, wo die Identif izierung von Geschwiilste 
und Tumore unterdriickenden Genen einen Schlusselrolle spielt, 
30 ist die Kenntnis neuer potenzieller Onkogene und ihrer Wech- 
selwirkung mit anderen Molekiilen ein wichtiger Beitrag zur 
Aufdeckung der Grundprinzipien, welche die Umwandlung norma- 
ler Zellen in bosartige Krebszellen bestimmen. 
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Mit der beschriebene Vorgehensweise gemafi dem Ausf uhrungsbei- 
spiel, insbesondere mit der Bayesschen inversen Modellierung, 
ist es moglich, Gene mit einer solchen onkogenen Charakteris- 
tik einfach durch eine statistische Analyse von Gen- 
Expressionsmustern, die mit Hilfe von DNA-Microarrays gemes- 
sen wurden, zu entdecken. 

Das zugrundliegende wahrscheinlichkeitstheoretische Modell, 
das verwendet . wurde, "ist ein Bayessches Netzwerk, welches die 
multivariate Wahrscheinlichkeitsverteilung einer Menge von 
Variablen mittels einer Menge von bedingten Wahrscheinlich- 
keitsverteilungen codiert. 

Die statistischen Abhangigkeiten werden in einer Graphstruk- 
tur codiert. Beim Lernverf ahren werden Bayessche Statistiken 
verwendet, urn die Netzstruktur und die entsprechenden Modell- 
parameter zu ermitteln, welche die Wahrscheinlichkeitsvertei 
lung enthalten in den Daten am besten beschreiben. 
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Patentansprtich© 



1. Verfahren zur Analyse eines regulatorischen genetischen 
Netzwerks einer Zelle unter Verwendung eines kausalen Netzes, 
welches kausale Netz das regulatorische genetische Netzwerk 
der Zelle beschreibt derart, dass Knoten des kausalen Netzes 
Gene des regulatorischen genetischen Netzwerks reprasentieren 
und Kanten des kausalen Netzes regulatorische Wechselwirkun- 
gen zwischen den Genen des regulatorischen genetischen Netz- 
werks reprasentieren, 

a) bei dem fur ein ausgewahltes Gen des regulatorischen ge- 
netischen Netzwerks eine Gen-Expressionsrate vorgegeben 
wird, 

b) bei dem unter Verwendung des kausalen Netzes fur die -vor- 
gegebene Gen-Expressionsrate ein resultierendes Gen-.' 
Expressionsmuster fur das regulatorische genetische Netz- 
werk generiert wird; 

c) bei dem das generierte resultierende Gen- 
Expressionsmuster mit einem vorgegebenen Gen- . . />/ 
Expressionsmuster des regulatorischen genetischen Netz- 
werks verglichen wird. , 

r 

2. Verfahren nach Anspruch 1, 

bei dem das ausgewahlte Gen unter Verwendung des kausalen 
Netzes mittels einer Abhangigkeitsanalyse ausgewahlt wird. 

3. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Gen-Expressionsrate des ausgewahlten Genes derart 
vorgegeben wird, dass die vorgegebene Gen-Expressrate des 
ausgewahlten Genes eine Annahme eines Gendefekts widerspie- 
gelt. 

4. Verfahren nach einem der vorangehenden Anspruche, 
bei dem das kausales Netz ein Bayesianisches Netz ist. 

5. Verfahren nach einem der vorangehenden Anspruche, 
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bei dem das kausale Netz von einem Typ DAG (directed acylic 
graph) ist. 

6. Verfahren nach einem der vorangehenden Anspriiche, 

bei dem das generierte resultierende und/oder das vorgegebene 
Gen-Expressionsmuster diskrete Genzustande reprasentiert. 

7. Verfahren nach einem der vorangehenden Anspriiche, 

-bei dem die reprasentierten diskreten Genzustande ein liber-, 
ein normal-, ein unterexprimierten Genzustand sind 



8. Verfahren nach einem der vorangehenden Anspriiche, 
bei dem der Vergleich des generierten resultierenden Gen- 
Expressionsmuster mit dem vorgegebenen Gen-Expressionsmuster 

15 unter Verwendung eines statischen Verfahrens und/oder einer 
statistischen Kennzahl, insbesondere eines Abstandsmaftes, 
durchgefuhrt wird. 

9. Verfahren nach einem der vorangehenden Anspriiche, 
20 bei dem das kausales Netz unter Verwendung von Gen- 

Expressionsmustern trainiert wird, wobei die Knoten und die 
Kanten des kausalen Netzes angepasst werden. 

10. Verfahren nach einem der vorangehenden Anspriiche, 
25 bei dem die Gen-Expressionsmuster, insbesondere das vorgege- 
bene Gen-Expressionsmuster und/oder die Gen-Expressionsmuster 
fur das Training, bestimmt werden unter Verwendung einer DNA- 
Micro-Array-Technik. 





11. Verfahren nach einem der vorangehenden Anspriiche, 
bei dem das vorgegebene Gen-Expressionsmuster und/oder die 
Gen-Expressionsmuster fur das Training Gen-Expressionsmuster 
eines genetischen regulatorischen Netzwerks einer kranken 
Zelle ist. 
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12. Verfahren nach einem der vorangehenden Anspriiche, 
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bei dem die kranke Zelle eine Onko-Zelle, insbesondere eine 
Onko-Zelle mit ALL (Akute lymphoblastische Leukamie) ist. 

13. Verfahren nach einem der vorangehenden . Anspruche, 
bei dem die kranke Zelle ein Onko-Gen, insbesondere ein ALL- 
Onko-Gen, aufweist. 

14. Verfahren nach einem der vorangehenden Anspruche, 
bei dem fur eine Vielzahl von ausgewahlten Genen des regula- 
torischen. genet ischen Netzwerks jeweils eine Gen- 
Expressionsrate vorgegeben wird, eine Vielzahl von resultie- 
renden Gen-Expressionsmustern generiert werden und eine Viel 
zahl von Vergleichen durchgef uhrt . werden. 

15. Verfahren nach einem der vorangehenden Anspruche, 
bei dem die Generierung der Vielzahl von resultierendea -Gen- 
Expressionsmustern iterativ durchgef uhrt wird. 

16. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zur Identif izierung eines dominanten Gens. 

17. Verfahren nach einem der vorangehenden Anspruche, £ 
eingesetzt zur Identif izierung eines degenerier- 
ten/mutierten/kranken/onkogenen/tumor-suppressor Gens . 

18. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zur Identif izierung einer Tumorzelle. 

19. Verfahren nach einem der vorangehenden Anspruche, 
30 eingesetzt zur Krebserkennung. 

20. Verfahren nach einem der vorangehenden. Anspruche, 
eingesetzt zu einer Ursachenanalyse fUr ein abnormales Gen- 
Expressionsmuster/Gen-Expressrate . 

35 

21. Verfahren nach einem der vorangehenden Anspruche, 
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eingesetzt zu einer Simulation und/oder Analyse einer Wirk- 
weise eines Medikaments . 

22. Computerprogramm mit Programmcode-Mitteln, urn alle 

5 Schritte gemafi Anspruch 1 durchzuf uhren, wenn das Prograrnm 
auf einem Computer ausgefuhrt wird. 

23. Computerprogramm mit Programmcode-Mitteln gemafi dem vo- 
rangehenden Anspruch, welche Programmcode-Mitteln auf einem 

10 computerlesbaren Datentrager gespeichert sind. 

24. Computerprogramm- Produkt mit auf einem maschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln , urn alle Schritte 
gemafi Anspruch 1 durchzuf uhren, wenn das Prograrnm auf einem 

15 Computer ausgefuhrt wird. 
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Zu s ammenf a s s ung 

Verfahren, Computerprogramm mite Programmcode-Mitteln und Com* 
puterprogramm-Produkt zur Analyse eines regulatorischen gene- 
tischen Netzwerks einer Zelle 

Die Erfindung betrifft eine Analyse eines regulatorischen ge- 
netischen Netzwerks einer Zelle unter eines kausalen Netzes. 

Bei dem Analyseverf ahren wird ftir ein ausgewahltes Gen des 
regulatorischen genetischen Netzwerks eine Gen-Expressions- 
rate vorgegeben. Unter Verwendung des kausalen Netzes wird 
fur die vorgegebene Gen-Expressionsrate ein resiiltierendes 
Gen-Expressionsmuster fur das regulatorische genetische- Netz 
werk generiert. Das generierte resultierende Gen-Expressions 
muster wird anschliefiend mit einem vorgegebenen Gen-Expres- 
sionsmuster des regulatorischen genetischen Netzwerks vergli 
chen. 



Sign. Fig.l 



I. 



i 



Fig.2 



Algorithmus der Stichprobenentnahme (B,N) 
Eingang: 

B - Bayessches Netzwerk; 
N - Anzahl der unabhangigen Stichproben. 
Ausgang: 

D a - Datensatz von N unabhangigen Stichproben. 



1. Ordne die Variablen-Menge X gemSR der Bedingung, dass Parents 
(Elternknoten) Pa t vor den X/angeordnet sind. 

2. Furs = 1, N 

3. Ftir/=1 t n 'v- ^2.^ 

4. Sei Xi der Knoten mit der hSchsten Ordnungsnummer in dieser. 
Stichprobe, der nicht instantiiert ist. 

5. Falls X f ein Wurzelknoten ist, wahle den Zustand mit 
Wahrscheinlichkeit P(Zustand) t 

6. andemfalls wahle den Zustand mit Wahrscheinlichkeit 
F(Zustand|entnommene Zustande von Pal). 

7. Instantiiere X, = Zustand. 



Fig.2: Algorithmus zur Erzeugung eines Datensatzes von N Stichproben aus einem Bayessch. 
Netzwerk S. 



Fig.3 



Algorithmus der interventionellen Stichprobenentnahme (B,E f N) 
Eingang: 

S - Bayessches Netzwerlc; 

E - Menge von Beobachtungen; rJ 

A/- Anzahl der unabhangigen Stichproben. 
Ausgang: 

D B \b - Datensatz von N unabhangigen Stichproben bei gegebenem E 



i 

Xe - Menge beobachteter Variabler; *\s 3Zx? 
Xq = {X\Xe} - Menge von Abfragevariablen. 

1 . Ordne X« gemaft der Bedingung, dass Parents (Elternknoten) Pa/ vor 
den X/angeordnet sind. 

2. FQrs=1 N 

3. FQr / = 1 n 

4. Sei Xi der Knote.n mit der hochsten Ordnungsnummer in dieser 
Stichprobe, der nicht instantii'eft isL * 1 

5. Falls X f (Bin Wurzelknoten ist, wahle den Zustand mit 
WahrscheinlidikeitPCZusfanc^E), 1 

6. ahdemfalls wahie den Zustand mit Wahrscheinlichkeit 
P(Zustand|entnpmmene Zustande von Paf t E). . 

7. . Jnstantiiere.X) == Zustand. 



Fig.3.: Algorithmus zur Erzeugung eines Datensatzes von N Stichproben aus einem Bayesschen 
Netzwerk B bei gegebener Evidenz E. 



3 Results 



3.1 Learned structure 

For our experiments we use the reduced dataset of 271 genes and 327 samples 
of different ALL-subtypes as described above. To train a multivariate model the 
dataset was discretized into the values over-, normal- and overexpressed. 
The learned structure shows scale-free characteristics a feature that is typical for 
biological networks, such as metabolic or signaling networks. Such networks are 
characterized by a power-law distribution of a node's degree, defined as the num- 
ber of connections with other ones. This nodes strongly affect the dynamics and 
robustness of scale-free networks and many of this highly connected genes in our 
model are in fact known to play a role in oncogenesis or in critical processes related 
to cancer development, e.g. DNA-repair. 

First, we generate a dataset of 300 samples from the model to estimate the statitics 
defined by the set of conditional probabilites. In Figure 3 one can see that the sam- 
pled data shows subtype-characteristic expression-patterns as in the original one. 
The patterns of some subtypes, such as E2A-PBX1 or T-ALL, are strongly repro- 
duced whereas some others are generated poorly, e.g. the pattern of subtype MLL, 
or completely missed such as BCR-ABL. 




a) original 



b) sampled 



Figure 3: 
pattern of 
generated 
patterns. 



a: Original discretized ALL microarray-dataset showing the expression 
271 genes over 372 bone marrow samples, b: Dataset* of 300 samples 
from a learned network. Data shows subtype-characteristic expression- 
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3.2 Modeling leukemia subtypes by intervention 

The learned B ayes-net is the basis for the inverse modeling approach where our 
aim is it to find those genes that, by fixing them at a certain expression level, af- 
fect the model such that the generated artificial microarray dataset shows specifc 
traits. As described in section 2.2.4 we estimate the probability P(C\E) of the in- 
cidence of a certain cancer-subtype C given some observation E, in this case, the 
expression-state of a certain gene P(C%ene t = state). A high probability predicts 
the fixed genes to be a potential cause for the subtype-specific expression-behavior 
of the queried genes that in turn can be the underlying reason for a specific cancer- 
ous phenotype. 

For the comparision we used 7 reference-datasets where each of them arises from 
patients with a specific ALL-subtype. Figure 3 a) shows that the original microarray- 
dataset is clearly subdivided into 7 clusters of different sample-sizes. Each of this 
clusters represents the expression-pattern of 271 genes given a certain leukemia- 
subtype and was used to measure the impact of evidence on the appareance of these 
different ALL-subtypes. In a first step we fixed each gene at any of its expression- 
values using each of this conditions to generate a dataset of 300 samples. We then 
compared each of this data with the 7 reference-datasets as explained in section 
2.2.4. In Figure 4, the probability of each subtype given one gene is overexpressed 




271 genes 



Figure 4: The probability P(subtype\+1) for each subtype given gene i is overex- 
pressed. For some genes a subtype-specific pattern appears with a probability near 
to 1. 

is plotted over all 271 genes. Apparently, there exist a small number of genes, that 
evoke a certain ALL-subtype with a high probability, given they are highly active. 
To proof our results we will have a closer look at the molecular function of certain 
genes and their role in biological processes especially regarding pathogenesis. 
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Figure 5: The dominant character of PBX1 confirms that it works as a transcrip- 
tional activator. 



3.3 Biological insights 

For this examination we will look into genes that have a high probability to cause a 
certain subtype as well as into significant structural pattern in the learned network, . 
e.g. dominant genes and their surrounding. The learned Bayes-net results from a 
microarray dataset of different leukemia-subtypes and reflects transcriptional rela- 
tionships among genes that occur in these malignant cancer-cells. Thus, genes that 
causes a certain subtype should either be potential oncogenes or regulated by such 
genes. 

The first gene that we want to analyze more specifically is gene PBX1. When it is 
overexpressed our model generates with a probability of 0.96 a dataset that is char- 
acteristic for ALL B-lineage subtype E2A-PBX1 (cf. Figure 4). This suggests, that 
there exists a causal relationship between the overexpression of this gene and the 
incidence of ALL subtype E2A-PBX1. And in fact, PBX1 is known as an proto- 
oncogene causing the transformation of normal blood cells into malignant AT T 
cancer-cells. Due to the chromosomal translocation t(l:19), PBX1 fuses with gene 
E2A and converts to a potent oncogene causing leukemia subtype E2A-PBX1 (]. 
Furthermore, since the graph structure of the model can be interpreted in a causal 
manner it gives information about the interaction between potential oncogenes and 
other ones which in turn can be interpreted as an oncogenic regulation. Looking 
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